Data Lakehouse(資料湖倉)這是 2023 終於紅到台灣的新詞彙。
Gartner:「資料湖倉是整合資料倉儲與資料湖泊為一體(湖倉一體),將運算配置與資料標準化,以支持企業 AI, BI, ML 與 Data Engineering (資料工程) 等任務需求。」全文可以參照下圖來源。
製圖者:Gartner
圖片來源:https://solutionsreview.com/data-management/gartner-da-summit-2023-the-gartner-view-of-the-data-lake-lakehouse/
Hadoop 還活得好好的,請看開源社區現況:https://github.com/apache/hadoop
兩年前開始 Databricks, Snowflake 領頭, 接著是 IBM 與 Gartner, 最後連 Hadoop 掌門人 Cloudera 正聯手埋葬資料湖泊。看看上面 Gartner 今年授權的文章論點就知道,風向已定。
好傷心啊~我很喜歡「資料湖泊」這個有詩意的名字。雖然 Lakehouse 湖景房也有詩意,但是大家約定俗成的翻譯可不太浪漫——資料湖倉。
搭配時代與應用場景,有很多不同的資料平台架構思維,Data Platform 是最上位概念、最籠統,包含傳統單體資料庫系統:
/ | OLAP Database | Data Hub | Data Warehouse | Data Lake | Data Lakehouse |
---|---|---|---|---|---|
支援處理非結構化資料與串流 | 無 | 無 | 無 | 有 | 有 |
多資料源 | 無 | 有 | 有 | 有 | 有 |
整合多資料源 | 無 | 無 | 有 | 有 | 有 |
資料分析作業 | 無 | 無 | 有 | 有 | 有 |
異質系統 Metadata 管理功能 | 無 | 無 | 無 | 無 [註] | 有 |
[註] Cloudera 在 2023.09 的 CDP 7.1.9 將 Apache Iceberg 納入,賦予產品異質系統 Metadata 管理功能,正式宣佈轉向為 Data Lakehouse 資料湖倉。
圖片來源:Cloudera
「異質系統Metadata 管理功能」可以說是資料湖倉的大殺器,也是 Cloudera 今年的重大里程碑。我個人認為,Cloudera 的 CDP 今年納入 Apache Airflow 與 Apache Iceberg,充分表達 Cloudera 在開源陣營的企業級巨量資料方案,積極保衛大哥地位的決心,我也覺得這步棋值得讚許。這一步之後,Cloudera 將可能成為資料類開源元件生態系的牧羊人。
Apache Iceberg 是值得專文介紹的。
但是本系列不介紹特定方案,有機會再說。用一張神圖讓各位了解它的角色:(會動的版本請造訪圖片來源網站)
圖片來源:https://www.starburst.io/blog/introduction-to-apache-iceberg-in-trino/?fbclid=IwAR37s5qPOJ7btd8-osJ06SMxHTADtoYnNWN5C4RKbUbo4LZx547QU_tDVuI
不確定您的 OLAP Database 在資料分析作業上寫『無』的意思是什麼。OLAP上的A(analytical)不就是分析的意思。再者 多資料源 無,個人也沒了解到您的意思。OLAP的資料有沒有多資料源不在於本身,而在於ETL時是否有整合不同的資料來源。
打錯吧! 是OLTP
不然把資料倉儲跟OLAP分開寫也很怪